package com.wanglei.rdd.transform

import org.apache.spark.{SparkConf, SparkContext}

object Spark08_sample {

  def main(args: Array[String]): Unit = {

    //
    val conf = new SparkConf().setMaster("local[2]").setAppName("map")
    val sc = new SparkContext(conf)


    val rdd = sc.makeRDD(List("hello", "scala", "hello", "spark"))

    // 抽取数据后是否放回 true放回 false不放回
    // 每条数据被抽取的概率:基准值的概念
    // 随机算法的种子
    rdd.sample(
      false,
      0.4,
      1
    )
      .collect()
      .foreach(println)

    //
    sc.stop()

  }

}
